Sword: Modelos de mundo robustos al estilo como simuladores mediante bootstrapping latente dinámico para el post-entrenamiento de políticas VLA
Modelos de mundo robustos como simuladores con bootstrapping latente para mejorar políticas VLA. Técnica avanzada en aprendizaje por refuerzo y planificación.